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RECONNAISSANCE VOCALE POUR 
LES LARGES VOCABULAIRES D YNAMI QUE S 

La pr^sente invention se rapporte au domaine de la 
reconnaissance vocale. 

La prgsente invention se rapporte plus 
particulierement au domaine des interfaces vocales. Elle 
presente 1'avantage d'etre utilisable independamment du 
contexte de 1 ' application vocale particuliere : systeme de 
reconnaissance de la parole pour serveur telephonique , 
dictee vocale f systeme de commande et controle embarqu£, 
indexation d'enregistrements... 

Les logiciels commerciaux actuels de reconnaissance de 
15 la parole sont bas6s sur 1' usage de reseaux de Markov caches 
(HMM pour Hidden Markov Model en anglais) pour decrire le 
vocabulaire a reconnaitre, et sur un decodage utilisant un 
algorithme de type Viterbi pour associer a chaque enonce une 
phrase de ce vocabulaire, 
20 L ^s reseaux markoviens en question utilisent le plus 

souvent des £tats a density continue. 

Le vocabulaire de 1 ' application , qu'il soit a 
l'origine base sur des grammaires ou sur des modeles de 
langage stochastiques , est compile en un rgseau d'etats 
25 fini f avec un phoneme de la langue utilisee a chaque 
transition du reseau, Le remplacement de chacun de ces 
phonemes par un reseau markovien elementaire qui represente 
ce phoneme dans son contexte de coarticulation, produit 
finalement un grand reseau markovien sur lequel le decodage 
30 de Viterbi s' applique. Les reseaux 61ementaires eux-m§mes 
ont ete appris grace & un corpus d' apprentissage et avec un 
algorithme d' apprentissage maintenant bien connu de type 
Baum-Welsh f par exemple. 
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Ces mSthodes aujourd'hui classiques sont decrites par 
exemple dans l'ouvrage de r££6rence de Rabiner, et 1' usage 
de modules de langage dans celui de P. Jelinek. 

Par souci de completude, nous allons neanmoins dScrire 
5 k nouveau de mani^re simplifiSe les differents composants 
d f un moteur de reconnaissance vocale actuel, dans un exemple 
particulier d' usage. 



Un signal de parole est conceptuellement une suite de 

10 phonemes continue ou interrompue par des pauses, des 
silences ou des bruits. Les propriStes acoustiques du signal 
de parole peuvent, au moins pour les voyelles, etre 
considSrSes comme stables sur des durees de l'ordre de 30 
ms. Un signal issu du telephone, £chantillonne & 8 kHz, va 

15 done etre segmente en trames de 256 echantillons (32 ms), 
avec un recouvrement de 50 % pour assurer une certaine 
continuity. L' information phonetique est ensuite extraite de 
chacune de ces trames par le calcul, par exemple dans le cas 
d' implementation decrit ici, des 8 premiers MFCCs (Mel 

20 Frequency Cepstral Coefficients, voir [Richard]), de 
l'energie de la trame, et des deriv£es premieres et secondes 
de ces 9 grandeurs. Chaque trame est ainsi representee, 
toujours dans cet exemple particulier, par un vecteur de 
dimension 27 appele vecteur acoustique. En raison des 

25 variations inter- et intra-locuteur , des conditions 
d'enregistrement, etc. dans les signaux de parole, un 
phoneme ne sera pas represents par un point dans cet espace, 
mais par un nuage de points, autour d'une certaine moyenne 
avec un certain etalement. La distribution de chaque nuage 

30 definit la densite de probability d' apparition du phoneme 
associe. Si cette extraction par MFCC est judicieuse, on 
doit obtenir dans cet espace un ensemble de classes 
relativement compactes et separees les unes des autres, 
chacune correspondant a un phoneme. 
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AprSs cette phase d' extraction acoustique f le signal 
de parole est done d£crit par une suite de vecteurs 
acoustiques f et le travail de reconnaissance consiste & 
determiner quelle suite de phonemes est, de la fagon la plus 
5 probable , associee a cette suite de vecteurs acoustiques. 



Conceptuellement done, un signal de parole est une 
suite de phonemes continue ou interrompue par des silences, 
des pauses ou du bruit. Le mot « zero » par exemple est 

10 constituS des phonemes [z], [e], [r], [o] . On pourrait 
imaginer un r#seau de Markov gauche-droite a 4 etats, chaque 
6tat 6tant associ£ a un de ces phonemes, dans lequel on ne 
permettrait aucun saut au-dessus d'un etat. Avec un modele 
entrain^, on pourrait r^aliser grace a 1'algorithme de 

15 Viterbi un « alignement » d'un nouvel enregistrement, e'est- 
a-dire determiner le phoneme associe a chacune des trames . 
Cependant a cause des phenomenes de coarticulation entre 
phonemes (modification des caracteristiques acoustiques d'un 
phoneme lors du changement de forme du conduit vocal entre 

20 deux sons stables), il est n^cessaire d'associer plusieurs 
etats h. un meme phondme, pour prendre en compte 1' influence 
du contexte. On obtient ainsi des 6tats contextuels 
d' entree, des 6tats dit « cibles », qui correspondent h la 
partie stable du phoneme , mais qui peuvent dependre elle- 

25 meme des phenomenes de coarticulation , de telle sorte qu'il 
y a en general plusieurs cibles, et des etats contextuels de 
sortie . Dans cet exemple particulier , on peut done par 
exemple utiliser des r^seaux markoviens 61ementaires en 
forme de papillons pour modeliser les phonemes elementaires 

30 de la langue. 

En reprenant 1' exemple precedent, on aurait par 
exemple pour le phoneme [e] un reseau tel qu'illustre Figure 
1. 

On aurait egalement par exemple pour le phoneme [z] un 
35 reseau tel qu'illustre Figure 2. 
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De meme, chacun des phonemes utilises pour d^crire la 
langue en question est associ£ a ce type de reseau 
markovien, different dans sa forme mais pr^sentant toujours 
des entries et sorties contextuelles dependant des 
5 ph§nomenes de coarticulation. 

Ces differents r^seaux, qui correspondent chacun & un 
phoneme de la langue , ont des densites de probability et 
des probability de transition qui sont determines par 
apprentissage sur un corpus de phrases enregistrees , avec 
10 1' usage d'un algorithme de type Baum-Welsh pour l'obtention 
des differents parametres (voir Rabiner par exemple). 



Le vocabulaire a reconnaitre varie en fonction de 
1' application : ce peut etre un nom, ou un numero de 

15 telephone, ou des requetes plus compliqu^es, par exemple des 
phrases completes pour une application de dictee. II faut 
done specifier les mots a reconnaitre / leur enchainement, ou 
leur probability d' enchainement , la syntaxe des phrases si 
elle peut etre connue et d^crite, pour utiliser cette 

20 connaissance supplementaire , simplifier les rSseaux de 
Markov et obtenir de bonnes performances en temps de calcul 
et en taux de reconnaissance. 

C'est le role du modele de langage de repr^senter 
cette connaissance. 

25 Da ns 1' exemple a caractere d' illustration de 1'etat de 

l'art dans ce domaine, nous utiliserons des modeles de 
langage bases sur des grammaires probabilistes , plutot que 
des modeles de langage stochastiques, comme ceux utilises 
par exemple dans les systemes de dictee. 

30 Une grammaire toute simple est celle constitute par la 

syntaxe article-nom-verbe, avec pour article « le », pour 
nom « chien » , et pour verbe « mange » ou « dort » . Le 
compilateur va transformer cette grammaire en un reseau de 
Markov, en mettant bout a bout les papillons des differents 

35 phonemes , en 61iminant les branches inutiles, et ce pour 
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toutes les phrases compatibles avec la syntaxe. L'etat 
initial est fixS par un papillon specifique reprSsentant le 
silence de debut de phase. II va etre relie a 1' entree 
« pause » du papillon du phoneme /l/. Seules les branches 
5 qui sont accessibles par transition a partir de cette entree 
sont conserves, jusqu'S. la sortie correspondant au phoneme 
/o/. Cette sortie et ensuite relive h 1'entrSe du papillon 
du /&/ correspondant au /l/. Puis par transition seules les 
branches utiles dans ce papillon sont conservees, et on 

10 continue ainsi jusqu'a epuisement des possibility de la 
grammaire. Le r§seau se termine necessairement sur un 
papillon modelisant le silence de fin de phrase. Des 
branches du reseau peuvent etre paralleles, si on a 
plusieurs possibilites de mots comme « mange » ou « dort » , 

15 si on veut introduire une pause optionnelle entre deux mots, 
ou si plusieurs phonetisations sont possibles pour un meme 
mot (par exemple « le » peut se prononcer [10] ou [Ice] 
suivant la region d'origine du locuteur) . 

De plus a la fin de chaque sous-r6seau (un sous-r6seau 

20 correspondant par exemple a un mot) f on introduit une 
transition « vide », c'est-^-dire avec une probability de 
transition 6gale a 1, attachee a une « etiquette », qui est 
une chaine de caracteres donnant le mot represents par ce 
sous-reseau (elle sera utilisee lors de la reconnaissance). 

25 resultat de la compilation est un r£seau complexe 

(d'autant plus que la grammaire est compliqu^e), optimise 
pour la reconnaissance d'un certain type d'enonce. 

La construction du reseau markovien d'une application , 
dite compilation r comprend done trois phases representees 

30 Figure 3. 

Pour illustrer ces phases , nous allons prendre un 
nouvel exemple simple base sur une grammaire selon le format 
ABNF du W3C : 

35 #ABNF 1.0 ISO-8859-1; 
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language fr; 
root $main; 

5 public $main = $BEGSIL (tete | jambe) $ENDSIL; 

Cette grammaire permet simplement de decrire le models 
de langage qui permet de reconnaitre le mot tete ou le mot 
jambe , de fagon isolee, c 'est-a-dire precedes et suivis d'un 
10 silence (et non pas de trouver une occurrence de ces mots 
dans des phrases plus complexes). 

Lorsque cette grammaire est compilee au niveau 
syntaxique, on obtient le reseau de la Figure 4. 

15 

Les transitions marquees W sont des marqueurs de mots 
qui serviront seulement a retrouver apres d^codage, le mot 
ef f ectivement prononce. Les transitions marquees L signalent 
un mot effectif de la langue qui devra etre phon6tis6. 

20 Puis la compilation lexicale, qui traduit la 

phonetisation des mots et 1 ' introduction de cette phonetique 
dans le reseau, produit le reseau de la Figure 5. 

Sur ce graphe comme sur les autres, les num£ros des 
§tats n'ont pas d' importance. On retrouve encore les 

25 marqueurs de mots, qui sont situes dans le reseau de fagon 
arbitraire tant qu'ils sont bien presents sur tous les 
parcours du graphe qui represente le mot associe f et pas sur 
les autres. 

Et enfin, la compilation acoustique permet d'obtenir 
30 le reseau markovien final, par utilisation des reseaux 
acoustiques en lieu et place des phonemes associ6s, 
application des conditions de raccordement contextuelles des 
modules , et optimisation du reseau. Ce reseau markovien est 
represente Figure 6. 
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Dans ce dernier graphe, les marqueurs de mots sont 
tou jours presents , et meme parfois dupliqu^s. 

Ce dernier graphe est uniquement present^ pour montrer 
que sa complexity et le nombre d'etats qu'il comporte, sont 
5 beaucoup plus grands que pour le niveau lexical* La 
compilation acoustique est de loin la phase la plus longue, 
produisant le r^seau le plus gros. 

Une fois le r^seau markovien de 1 ' application 
10 construit comme decrit ci-dessus, il est alors utilise par 
le moteur de reconnaissance pour la comprehension (decodage) 
des phrases prononcees par 1 'utilisateur . 

Dans un premier temps , comme il a £t6 d§crit plus 
haut, ce signal de parole est converti grace & la phase 
15 d'extraction acoustique, en une suite de vecteurs 
acoustiques . 

II s'agit alors de determiner quel parcours dans le 
reseau markovien de 1' application, est le plus probablement 
associe a cette suite de vecteurs acoustiques , ou bien de 

20 decider que l'enoncg n'est pas une des phrases que 
1' application est construite pour reconnaitre. 

Ceci est effectug en utilisant l'algorithme de 
decodage de Viterbi, par exemple. Le principe du decodage 
est illustre Figure 7 . 

25 Sur l'axe des abscisses du schema sont repr^sentes, en 

temps discret, les differents vecteurs acoustiques qui 
arrivent regulierement au moteur de reconnaissance (par 
exemple ici, toutes les 16 ms). 

En ordonn^e, sont reprgsentes les differents etats du 

30 r6seau markovien de 1 ' application , ainsi qu'ils ont ete 
obtenus apres la phase de compilation decrite plus haut, et 
qui utilisait & la fois la structure en papillon des 
phonemes §lementaires de la langue, et la grammaire de 
1 ' application . 
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Ainsi, si l'on repr£sente tous les £tats du r£seau sur 
1'axe vertical , seules certaines transitions entre ces etats 
sont possibles , avec une certaine probability , et au depart, 
on est forcement dans un des etats associ£s au silence de 
5 depart, represents en double cercle sur la figure. 

On calcule alors f a chaque nouvelle trame, et en 
consid^rant toutes les transitions permises, le score du 
meilleur chemin amenant a tout £tat E j . 

II y a alors un yiagage, c'est-a-dire que l'on ne 
10 retient pour les developpements associes aux prochaines 
trames, que les n meilleur s candidats, ou, selon certaines 
variantes de 1 ' algorithme, que les 6tats qui ont un score 
suf f isamment proche du score du meilleur parcours (i.e. 
celui qui au temps Ti, obtient le score le plus Sieve). 

15 

A titre d'exemple, on a reprSsente sur le schema le 
front It 1' instant t4, avec les scores des differents 
candidats. Si, par exemple, on avait choisi de limiter le 
front k 3 etats, alors les hypotheses de developpement du 

20 front representees en vert n'auraient pas ete explorees . 

De la meme maniere, si l'on avait decide de ne 
conserver que les candidats ayant un score au moins egal a 
10% du score maximal, alors ces memes hypotheses n'auraient 
pas 6te explorees. 

25 En reality, on conserve generalement plusieurs 

centaines voire plusieurs milliers de candidats, selon la 
complexity de la grammaire. 

II faut remarquer que si la grammaire est complexe, il 
arrive frequemment que seule une petite portion du rSseau 

30 markovien est ef f ectivement utilisee dans le decodage, le 
reste n'etant pas visite h cause de l'elagage lui-m§me, qui 
supprime les hypotheses tr&s peu probables. 

Lorsque toutes les trames de parole ont et£ 
35 consommees, on obtient alors, comme parcours le plus 
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probable , le chemin de plus haut score obtenu par 
l'algorithme pour lequel 1'etat de sortie du rfiseau est 
atteint. On remonte alors la suite des etats associ6s, du 
dernier au premier (backtracking en anglais), pour obtenir 
5 la phrase qui a vraisemblablement £te prononc^e, en 
utilisant les fronts conserves aux differents instants. 
Ceci est illustre Figure 8. 

Plutot que de ne retenir que la suite d'6tats qui a 
10 obtenu le meilleur score, il est possible d'en conserver 
plusieurs, en prenant soin de ne prendre en consideration 
que les suites qui sont ef f ectivement associ^es a des 
£nonc6s differents (et non a des variantes d'un meme 6nonce, 
avec par exemple des alignements temporels differents ou 
15 bien avec des variantes de prononciation dif f erentes ) . 

Cette technique, dite de decodage Nbest, peut etre 
utilisee pour obtenir les n meilleurs candidats, avec pour 
chacun, un score associe, ce score etant d'autant plus elev6 
que la phrase est plus probable. 

20 

Vis-^-vis du decodage de Viterbi, le decodage Nbest 
implique de conserver, dans le cas ou plusieurs transitions 
aboutissent a un seul nceud, non pas le seul antecedent qui 
produit ce meilleur score, mais plusieurs antecedents et 

25 leur score associe. 

Done par exemple, s'il s'avere que le r^seau final est 
en fait un arbre, e'est-^-dire si un nceud peut avoir 
plusieurs successeurs, mais qu'un nceud n'a tou jours qu'un 
seul antecedent, alors la phrase eff ectivement prononcee 

30 peut §tre simplement deduite a partir du dernier nceud 
atteint, et il est alors possible de faire du decodage Nbest 
sans surcout, juste en classant en fin de decodage les nceuds 
finaux par ordre de scores decroissant. 
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La reconnaissance vocale selon l'6tat de l'art que 
nous avons decrit, utilise un reseau de Markov cache qui est 
construit par compilation en trois phases : compilations 
syntaxique, lexicale puis acoustique, cette derniere phase 
5 etant de loin la plus longue et produisant le reseau le plus 
gros . 

Le reseau obtenu est utilise par un algorithme de 
d£codage de Viterbi avec elagage, c'est-a-dire que seules 
les solutions qui semblent les plus prometteuses sont 
10 d^veloppees, et les autres abandonnees. 

Par ce principe d' elagage, chaque reconnaissance 
utilise une sous-partie du reseau differente. 



Nous avons vu que les moteurs de reconnaissance de 
15 l'art anterieur utilisent pour le d^codage un reseau compile 
qui reprgsente le vocabulaire actif, plus exactement 
1' ensemble des phrases que 1 ' application peut reconnaitre. 
Cette compilation est souvent un processus lent, meme sur 
des machines puissantes, et le reseau compile obtenu peut 
20 etre assez encombrant en memoire. 

Ceci est surtout penalisant pour les gros vocabulaires 
comme les listes de noms utilis^es en assistance vocale pour 
les annuaires (plusieurs centaines de milliers de noms, 
voire plusieurs millions pour certaines grandes villes), et 
25 qui, de plus, sont dynamiques : il faut pouvoir rapidement 
construire la liste associee a une zone g^ographique dans 
une requete d' elargissement autour d'une ville donnee par 
exemple • 

Comme on l'a vu dans la presentation de l'etat de 
30 l'art, la reconnaissance vocale actuelle s'appuie sur un 
reseau de Markov qui est construit par etapes successives, 
la derniere etape, la plus consommatrice en temps, 
produisant finalement un reseau directement utilisable dans 
1' algorithme de decodage. 
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Le decodage lui-meme est basg sur 1 ' algorithme de 
Viterbi avec glagage, c'est-a-dire que seules les hypotheses 
de plus haut score sont conservees dans le developpement 
temporel de la recherche des meilleurs candidats. 
5 Lorsque le vocabulaire d'une application est grand, ou 

lorsque les grammaires sont complexes , done que le reseau 
markovien de 1 ' application comprend un tres grand nombre 
d'etats, il decoule de l'<§lagage que seule une petite partie 
du reseau sera ef f ectivement utilisee au cours d'un decodage 

10 donne, le reste 6tant representatif de parties du 
vocabulaire ou de la grammaire phon<§tiquement tres 
differentes de ce qui est eff ectivement prononc6. 

Le principe de 1 ' invention est de construire 
dynamiquement, pour chaque decodage, la petite partie du 

15 reseau utile, plutot que, come dans l'etat de l'art, 
construire d'abord le reseau complet qui sera ensuite 
utilise tel quel dans tous les decodages futurs. 

Plus pr§cisement, le principe de 1' invention est de 
construire un arbre phonetique representatif du vocabulaire 

20 de 1' application. Ce graphe correspond en quelque sorte au 
resultat des premieres etapes de compilation, jusqu'a la 
phase lexicale. 

La production de ce graphe est extremement rapide, 
m§me pour de tres grands vocabulaires de plusieurs centaines 
25 de milliers de mots. 

Ce graphe est alors utilise au cours de chaque 
decodage, pour permettre de construire la partie du reseau 
de Markov acoustique necessaire selon l'elagage present. 



30 A cet effet, la presente invention concerne, dans son 

acception la plus generale, un proc^de de reconnaissance 
vocale comportant une etape de representation d'un 
vocabulaire traduit en un modele de Markov, une etape de 
decodage par un algorithme de Viterbi et une 6tape d'^lagage 

35 des solutions explorees, caracterise en ce que ledit 



WO 2005/006308 PCT/FR2004/001799 

12 

vocabulaire est dicrit sous forme d'un arbre compose d'arcs 
et de nceuds entre lesquels sont d^finies des transcriptions 
decrivant les unites phonetiques utilisees par le modele de 
langage de 1 ' application , et en ce que le riseau de Markov 
5 necessaire au decodage de Viterbi est construit au moins en 
partie de maniere dynamique grace a des sous-unit§s 
Markoviennes . 

Avantageusement, des mots differents du vocabulaire 
10 mais presentant des segments phonetiques identiques en debut 
de mot partageront, pour ces segments identiques , les memes 
branches de 1' arbre phonetique. 

Selon un mode de mise en ceuvre, lesdites unites 
phonetiques sont des phonemes. 
15 Selon un autre mode de mise en ceuvre, lesdites unites 

phonetiques sont des phon&mes en contexte. 

La presente invention se rapporte egalement a un 
systeme de reconnaissance vocale pour la mise en ceuvre du 
20 proc§d6 comprenant au moins une memoire et des moyens de 
calcul. 

On comprendra mieux 1' invention & l'aide de la 
description, faite ci-apres a titre purement explicatif, 
25 d'un mode de realisation de 1' invention, en reference aux 
figures annexees : 

• la figure 1 illustre un exemple de r^seau de 
Markov correspondant k un phoneme ; 

• la figure 2 illustre un autre exemple de reseau de 
30 Markov correspondant a un phoneme ; 

• la figure 3 represente la construction du reseau 
markovien d'une application, dite compilation ; 

• la figure 4 illustre un reseau obtenu lorsqu'une 
grammaire est compilee au niveau syntaxique ; 
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• la figure 5 illustre un rgseau produit par la 
compilation lexicale, qui traduit la phon^tisation des mots 
et 1' introduction de cette phon6tique dans le reseau ; 

• la figure 6 represente un autre exemple de reseau 
5 markovien ; 

les figures 7 et 8 illustrent le principe du 

decodage ; 

• la figure 9 illustre un exemple de graphe pour la 
mise en oeuvre du procede selon 1' invention ; 

.0 • la figure 10 illustre la forme d'un arbre ; 

• la figure 11 illustre un reseau markovien 
representant le phoneme [m] ; 

• la figure 12 illustre un reseau markovien extrait 
de celui de la figure 11 selon les contraintes de contexte ; 

-5 • les figures 13, 14 r 15, 16, 17, 18, 20 et 21 

repr^sentent d'autres r^seaux de Markov ; et 

• la figure 19 illustre un arbre. 



Dans un exemple particulier d' utilisation, 1' invention 
20 est particulierement adaptee a la reconnaissance vocale sur 
de tres grandes listes de mots ou de noms, par exemple pour 
des applications d'annuaires vocaux. 

La description de 1' invention sera done faite, de 
fagon non limitative, pour ce type d' application. 
25 L'acces k l'annuaire se fait pour l'utilisateur au 

tr avers d'une suite de questions-reponses, dont un exemple 
est donne Figure 9. 



Dans cette sequence de questions, certaines vont 
30 occasionner des reponses possibles pour un vocabulaire 
constitue par une longue liste de noms : par exemple 
« Reconnaissance Nom » pour une ville importante, si la 
liste des abonnes a ete mise h jour. Cette liste doit 
d' autre part etre elargie dans le cas ou le dialogue mene a 
35 1' extension aux localites voisines, e'est-a-dire si la 
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recherche doit etre 6tendue a des villes proches de la ville 
initiale de recherche. 

C'est principalement dans ces cas que la technologie 
actuelle de l'6tat de l'art est inutilisable , car la 
5 compilation du r^seau markovien qu'elle nScessite est 
beaucoup trop lente. 

On voit egalement sur ces graphes 1' usage du d£codage 
Nbest, qui permet d'enumerer les solutions possibles et de 
demander la validation par 1 'utilisateur . 
10 Ces listes sont construites par interrogation d'une 

base de donn^es, qui, pour chaque ville, donne les abonn^s 
telephoniques et la ou les phonetisations possibles de ces 
noms. 

Nous allons decrire le f onctionnement detaille de 
15 1' invention en utilisant une liste reduite de noms, afin de 
rendre clairs les developpements, meme s'il s'avere que 
l'interet de 1' invention reside principalement dans son 
efficacite pour les grands vocabulaires . 

Prenons les noms suivants, avec leur phonetisation : 

20 



Morand 


m . 


o 


. r . 


an 




Moraux 


m . 


o 


. r . 


au 




Mora z in 


m • 


o 


• r . 


a . z . 


in 


Morel 


m . 


o 


. r . 


ai . 1 


• (e+()) 


Morice 


m . 


o 


. r . 


i . s . 


(e+()) 


Morin 


m . 


o 


• r . 


in 





Dans 1' invention proposee, cette liste n'est done pas 
utilisee pour produire un reseau classique par compilation 
30 tel que d^crit dans l'etat de l'art presente plus haut. Elle 
est au contraire transform^ en un arbre phonetique 
deterministe . 

Pour les noms donnas ci-dessus, cet arbre prendra la 
forme telle qu'illustr^e Figure 10. 
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II faut noter que la creation d'un tel graphe est 
extremement rapide, puisque sur une machine de calcul de 
Hewlett Packard de type Pentium 3 de 1GHz de frequence 
d'horloge, il faut par exemple 0,4 seconde pour former 
5 l'arbre d'une ville de 60 000 habitants, alors que la 
compilation standard complete de cette meme liste prend sur 
la meme machine environ 8 minutes, ce qui est incompatible 
avec le temps d'attente d'une personne utilisatrice du 
service. C'est en effet la phase de construction du reseau 
10 markovien final qui est la plus longue. 

L'arbre precedent est utilise, selon la presente 
invention, dans le dScodage de Viterbi prefer entiellement de 
la maniere suivante (des variantes seront presentees plus 
15 loin) : 

Au demarrage du dScodage, nous sommes dans l'etat 
initial du graphe represents par la boite numerotee 0. 

Ce graphe montre que le premier phoneme est un [m] , 
20 avec a gauche un silence de dSbut de mot, puisque c'est le 
premier etat, et a droite un unique phoneme [o]. 

Si par exemple, dans le jeu des reseaux markoviens 
Slementaires utilises, selon l'etat de 1'art, le phoneme [m] 
est represents par le reseau de la Figure 11. 

25 

Alors, puisque a gauche du phoneme [m] on a seulement 
un silence, qui correspond a 1' entree qe_mjpau, et puisque a 
droite on a un seul phoneme [o], qui correspond & la sortie 
qs_m_jpom, alors seuls les Stats grises du modele SISmentaire 
30 seront ef f ectivement accessibles et utiles. 

On composera done le reseau illustre Figure 12 extrait 
du precedent selon les contraintes de contexte. 

On commencera le dScodage de Viterbi avec Slagage sur 
35 ce reseau. Lorsqu'une des hypotheses developpees dans le 



WO 2005/006308 PCT/FR2004/001799 

16 

front atteindra l'6tat qsjmj>om, il faudra alors construire 
la suite du reseau dynamiquement pour poursuivre le 
decodage • 

Pour cela on utilise l'arc phonetique pour trouver que 
5 le phoneme suivant est un [o] r pris entre le phoneme [m] et 
le phoneme [r] . 

La situation est identique : 

Si par exemple le phoneme [o] est represents par le 
rSseau markovien de la Figure 13 f alors la partie utile , 
10 representee par les nceuds grises sur le des sin, sera du fait 
des contextes r conforme a la Figure 14. 

Et on obtiendra done, a ce stade du decodage , le 
reseau dynamiquement construit de la Figure 15. 



15 Encore une fois, lorsqu'une des hypotheses du decodage 

de Viterbi atteindra l'Stat final de ce reseau (note ici 
<Is_o_r), on utilisera l'arbre phonetique pour constater que 
le phoneme suivant est un [r] . 

A ce stade , ce reseau construit dynamiquement est bien 

20 la sous-partie du reseau complet qui aurait ete obtenu par 
une compilation traditionnelle . La seule difference est 
qu'il est construit a la demande, et non avant usage de 
maniere complete et statique. 

En d'autres termes, l'elagage n'a pas encore d' impact 

25 sur le developpement du reseau qui reduirait ef f ectivement 
les portions de reseau developpees. 

Nous allons voir maintenant ce point particulier dans 
notre exemple en poursuivant le decodage dans un contexte 
phonetique plus riche : 

30 En effet, le [r] est cette fois present dans un 

contexte phonetique plus riche, puisqu'on trouve a sa droite 
dans l'arbre les phonemes [in] f [i], [ai], [a], [au], [an]. 

Si le [r] est represents par le reseau de la Figure 
16, alors la partie utile de ce contexte sera conforme a la 

35 Figure 17. 
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Et finalement, on arrivera a ce stade au reseau actif 
dynamiquement construit represente sur la Figure 18. 

Supposons done que f au cours du decodage de Viterbi 
s'appuyant sur ce reseau , une des hypotheses amene a l'etat 
5 de sortie qs_r_i (parce que 1 ' utilisateur prononce 
ef fectivement Morice) avec un score tellement elev6 que les 
autres hypotheses, arrivant dans les autres etats de sortie, 
soient eliminees du front. 

Alors au cours du developpement dynamique suivant, 
10 seule la branche de 1'arbre associee a cette hypothese sera 
d6velopp£e, les autres etant abandonnees. Tout se passe 
comme si le decodage se poursuivait sans les branches de 
1'arbre presentees en pointilles sur la Figure 19. 

Ainsi cette fois, en consequence de l'elagage, le 
15 reseau dynamiquement developpe selon le principe de 
1' invention n'est plus 1' image du reseau complet obtenu par 
compilation selon l'etat de l'art : e'est un reseau plus 
petit . 

L'exemple developpe ici est simple par souci de 
20 clarte, mais dans des applications reelles, la partie du 
reseau ef fectivement developpee est tres faible comparee au 
reseau classique obtenu par compilation. 

On peut done dire que, selon l'etat de l'art, le 
reseau markovien correspondant au vocabulaire de 
25 1' application est construit une fois pour toutes, et que 
pour chaque decodage, en raison de l'eiagage mis en ceuvre au 
cours du decodage, seule une petite partie de ce reseau est 
ef fectivement utilisee, 

Tandis que, selon le principe de 1' invention, le 
30 reseau complet n'est jamais construit, mais la partie du 
reseau ef fectivement necessaire pour une reconnaissance 
donnee est dynamiquement construite au cours du decodage. 

Dans 1 ' implementation que nous avons presentee, la 
35 partie du reseau de Markov cache de 1 ' application qui est 
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n^cessaire pour un dScodage est construite dynamiquement , 
6tape par §tape, en d^coupant les rgseaux markoviens 
elementaires afin d'en extraire, selon les contextes 
d' apparition des phonemes dans l'arbre de 1' application , la 
5 sous-partie utile • 

L'arbre phonetique de 1 ' application joue dans ce 
processus un role central pour determiner ces contextes , de 
meme qu'il permet d'effectuer un d^codage Nbest de maniere 
efficace et simple r du fait meme de sa structure d'arbre, 
10 par opposition a un graphe. 

II existe d'autres implementations de 1' invention 
proposee, qui conserve le role central de cet arbre pour les 
raisons d§crites. 

Nous allons d^crire une de ces alternatives, de fagon 
15 non exclusive d'autres variantes. 



Supposons que nous ayons, pour une langue donn6e, 40 
reseaux markoviens elementaires representant les phonemes 
utilises dans cette langue pour phonetiser les mots. Ces 

20 reseaux, comme dans les quelques exemples donnes, ont des 
etats d f entree et de sortie pour representer les contextes 
phonetiques, selon des regies strictes : par exemple un etat 
qs_ x _i ne peut etre connecte qu'a un etat qe_y_i r x et y 
etant deux reseaux elementaires quelconques. 

25 °n peut construire alors un reseau global dans lequel 

les 40 sous-r6seaux sont mis en parallele, et de plus r 
toutes les sorties de chaque reseau sont connectees par des 
transitions vides a toutes les entrees de tous les reseaux 
qui lui sont compatibles selon les contextes phonetiques 

30 (c f est-a-dire qu'on a un reseau markovien correspondant k 
toutes les suites de phonemes possibles). 

II est alors possible, au lieu de d^velopper 
dynamiquement comme prec<§demment la partie utile du reseau, 
d'utiliser l'algorithme de Viterbi dans lequel les etats 

35 manipules sont des paires const ituees d'un etat du reseau 
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complet formg comme d6crit ci-dessus et d'un nceud de l'arbre 
phon^tique . 

Lorsqu'une hypothese amene a un des 6tats de sortie 
d'un papillon, alors on v^rifie dans l'arbre phongtique 
5 qu'il y a bien des branches compatibles avec le contexte 
phonetique associe a cet £tat. Dans le cas contraire, on 
abandonne le developpement de cette hypothese , comme si elle 
etait victime d'un 61agage standard. 

Cette mgthode est f onctionnellement equivalente a la 
10 methode proposee precedemment , mais elle est plus couteuse 
en temps de calcul, puisque des hypotheses sont developp^es 
meme s'il s'avere ult§rieurement qu'elles conduisent h. des 
contextes phonetiques qui ne sont pas presents dans l'arbre 
de 1' application , et done qu'elles seront de toute fagon 
15 eliminees. 

Pour illustrer ce point , on peut reprendre l'exemple 
du phoneme [r] utilise dans notre exemple precedent. En 
raison de la structure particuliere de l'arbre de notre 
exemple, seuls les etats grises du modele complet , et les 
20 transitions entre ces 6tats, 6taient finalement utiles. On 
se reportera a cet effet a la Figure 20. 

Selon la description de la variante decrite ici, les 
autres transitions vers toutes les sorties non gris6es 
seraient egalement d^veloppees, mais seraient ensuite 
25 abandonnees quand l'etat de sortie serait atteint r 
puisqu'aucun des contextes associ^s a ces etats n'est 
present dans l'arbre de cette application simple. 

II est possible de remedier a ce surplus de travail en 
ajoutant des transitions vides nouvelles dans chacun des 
30 reseaux £16mentaires utilises , qui se comportent comme des 
portes f e'est-a-dire qui peuvent etre ouvertes ou fermees. 

Dans le cas de l'exemple du r§seau associe au phoneme 
[r] ci-dessus f on aurait par exemple le reseau de la Figure 
21. 
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Sur ce modele, les transitions en pointilles montre 
des transitions de type porte « ouverte » , du fait du 
contexte d' apparition du [r], qui fait que tous les etats de 
sortie ne peuvent etre atteints. 
5 Pour les etats de sortie actives , en grisS sur le 

schema, les portes associees sont fermees, et sont 
representees en traits pleins. 

Dans le front de developpement utilise par 
1 ' algorithme de decodage de Viterbi avec elagage, il faut 
10 non seulement conserver, comme decrit plus haut, une 
reference a l'etat du reseau associe a l'hypothese que cet 
element du front represente, mais aussi conserver dans des 
variables appropriees l'etat des portes (ouvertes ou 
fermees) en tenant compte des contextes droits d' apparition 
15 du phoneme dans l'arbre. 

Par exemple f il est possible que dans un meme front , 
deux references differentes au meme phoneme done au meme 
reseau soient presentes, mais dans des contextes phonetiques 
differents et done avec des positionnements des portes 
20 differentes. 

Cette variante est ainsi f onctionnellement equivalente 
a 1 ' implementation standard presentee. Elle necessite 
neanmoins pour etre aussi efficace, de rajouter ces 
transitions vides de type porte et de les contrSler pour 
25 chaque element du front au cours du decodage en fonction des 
contextes rencontres a droite de chaque phoneme dans l'arbre 
phonetique . 

Nous avons vu que l'arbre phonetique est central pour 
30 1' invention proposee, principalement pour permettre un 
decodage Nbest sans surcout. 

Bien sur, il est possible de stocker cet arbre de 
maniere plus compacte, par exemple en stockant un graphe 
equivalent a l'arbre dont les parties droites communes a 
35 plusieurs branches sont factorisees. 
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Par contre, cette forme compacte sera utilisee comme 

representation de l'arbre lui-ineme de la maniere standard 
d^crite plus haut. 



5 L' invention est d^crite dans ce qui precede k titre 

d'exemple. II est entendu que l'homme du m§tier est a meme 
de realiser diff^rentes variantes de 1' invention sans pour 
autant sortir du cadre du brevet. 
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RE VEND I CAT I ONS 
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1. Proc£de de reconnaissance vocale comportant une 
etape de representation d'un vocabulaire traduit en un 
5 modele de Markov , une 6tape de d^codage par un algorithme de 
Viterbi et une etape d'elagage des solutions explores, 

caracterise en ce que ledit vocabulaire est decrit 
sous forme d'un arbre compose d'arcs et de noeuds entre 
lesquels sont definies des transcriptions d^crivant les 
10 unites phonetiques utilisees par le modele de langage de 
1' application, et en ce que le rSseau de Markov n£cessaire 
au decodage de Viterbi est construit au moins en partie de 
manifere dynamique grace a des sous-unit6s Markoviennes • 

15 2 - Procede de reconnaissance vocale selon la 

revendication l f caracterise en ce que des mots differents 
du vocabulaire mais presentant des segments phonetiques 
identiques en d^but de mot partageront f pour ces segments 
identiques, les memes branches de 1' arbre phon£tique. 

20 

3. Procede de reconnaissance vocale selon la 
revendication 1 ou 2 , caracterise en ce que lesdites unites 
phonetiques sont des phonemes. 



25 4 * Procede de reconnaissance vocale selon la 

revendication 1 ou 2 f caracterise en ce que lesdites unites 
phonetiques sont des phonemes en contexte. 

5. Systeme de reconnaissance vocale pour la mise en 
30 ceuvre du procede de reconnaissance vocale selon l'une 
quelconque des revendications precedentes comprenant au 
moins une memoire et des moyens de calcul. 
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